Telegram Group & Telegram Channel
Как обеспечить последовательность очистки данных для временных рядов в обучающем и тестовом наборах данных с учётом разных временных окон

Для временных рядов тестовый набор обычно относится к более позднему временному окну, чем обучающий. Если распределение временного ряда изменяется, важно, чтобы шаги очистки (например, заполнение пропусков) и создание признаков (например, скользящие средние) не использовали данные из будущего.

Преобразования (например, скользящее среднее) следует рассчитывать только на основе прошлых данных, используя тренировочное окно для выбора стратегии очистки, а затем применяя её к тестовому окну без перерасчёта с использованием будущих данных.

⚠️ Подводный камень

Некоторые методы очистки могут неявно использовать будущие данные. Например, если для заполнения пропусков используется медиана по всему набору данных, можно случайно использовать данные из будущего. Это приводит к утечке данных.

Правильный подход — использовать историческую информацию для очистки и создания признаков, строго следуя причинной логике.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ds_interview_lib/927
Create:
Last Update:

Как обеспечить последовательность очистки данных для временных рядов в обучающем и тестовом наборах данных с учётом разных временных окон

Для временных рядов тестовый набор обычно относится к более позднему временному окну, чем обучающий. Если распределение временного ряда изменяется, важно, чтобы шаги очистки (например, заполнение пропусков) и создание признаков (например, скользящие средние) не использовали данные из будущего.

Преобразования (например, скользящее среднее) следует рассчитывать только на основе прошлых данных, используя тренировочное окно для выбора стратегии очистки, а затем применяя её к тестовому окну без перерасчёта с использованием будущих данных.

⚠️ Подводный камень

Некоторые методы очистки могут неявно использовать будущие данные. Например, если для заполнения пропусков используется медиана по всему набору данных, можно случайно использовать данные из будущего. Это приводит к утечке данных.

Правильный подход — использовать историческую информацию для очистки и создания признаков, строго следуя причинной логике.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/927

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

Tata Power whose core business is to generate, transmit and distribute electricity has made no money to investors in the last one decade. That is a big blunder considering it is one of the largest power generation companies in the country. One of the reasons is the company's huge debt levels which stood at ₹43,559 crore at the end of March 2021 compared to the company’s market capitalisation of ₹44,447 crore.

The SSE was the first modern stock exchange to open in China, with trading commencing in 1990. It has now grown to become the largest stock exchange in Asia and the third-largest in the world by market capitalization, which stood at RMB 50.6 trillion (US$7.8 trillion) as of September 2021. Stocks (both A-shares and B-shares), bonds, funds, and derivatives are traded on the exchange. The SEE has two trading boards, the Main Board and the Science and Technology Innovation Board, the latter more commonly known as the STAR Market. The Main Board mainly hosts large, well-established Chinese companies and lists both A-shares and B-shares.

Библиотека собеса по Data Science | вопросы с собеседований from fr


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA